在開始使用 pandas 之前,必須先知道兩個主要資料結構,Series 與 DataFrame。
Series 是一維的類陣列 (array) 物件,裡面有一系列相同型態的值,以及一個資料標籤陣列,稱為索引 (index)。
In [14]: obj = pd.Series([4, 7, 5, 3])
In [15]: obj
Out[15]:
0 4
1 7
2 5
3 3
dtype: int64
這個畫面以互動的方式顯示 Series,左邊是索引,右邊是顯示值,因為沒有指定資料的索引,所以預設索引是從整數 0
到 N - 1
(N 為資料的長度),可以使用 Series 的 array
和 index
屬性來取得陣列表示法與索引物件。
In [16]: obj.array
Out[16]:
<PandasArray>
[4, 7, 5, 3]
Length: 4, dtype: int64
In [17]: obj.index
Out[17]: RangeIndex(start=0, stop=4 ,step=1)
使用 .array
屬性會得到一個 PandasArray
,通常會包含一個 NumPy 陣列,但也有可能包含特殊的延伸陣列型態。
在建立 Series 時,通常會使用索引標籤來代表各資料點:
In [18]: obj2 = pd.Series([4, 7, 5, 3], index=["d", "b", "a", "c"])
In [19]: obj2
Out [19]:
d 4
b 7
a 5
c 3
dtype: int64
In [20]: obj2.index
Out[20]: Index(['d', 'b', 'a', 'c'], dtype='object')
今日的分享就到這囉,我們明天見,掰掰!